home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1993 July / Internet Tools.iso / RockRidge / mail / pp / pp-6.0 / Lib / charset / design < prev    next >
Encoding:
Text File  |  1991-07-18  |  6.8 KB  |  162 lines

  1. Guidelines for character mnemonics in a minimal character set.
  2.  
  3. By Keld Simonsen, Danish UNIX User Group (DKUUG)
  4. Representative to SC22 WG on Character Set Usage
  5. for Danish Standards Association (DS), Denmark.
  6.  
  7. Draft January 1991.
  8.  
  9. Aim of Character Mnemonics 
  10.  
  11. The aim of the mnemonics is to be able to represent all characters
  12. in all standard coded character sets in any standard coded
  13. character set. Thus all standard coded character sets will be
  14. related, and a conversion can take place.
  15.  
  16. The usage of the character mnemonics is primarily intended
  17. within computer operating systems, programming languages and
  18. applications, and this work with character mnemonics is the current
  19. state of work which has been presented to the ISO working group
  20. responsible for these computer related issues, namely the
  21. ISO/IEC JTC1/SC22 special working group on character set usage.
  22.  
  23. Covered Coded Character Sets
  24.  
  25. Almost all characters in the standard coded character sets have been
  26. given a mnemonic name in the minimal character set.
  27. The minimal character set is defined as the basic character set
  28. of ISO 646, where 12 positions are left undefined. 
  29. The standard coded character sets are taken as the sum of
  30. all ISO defined or ISO registered character sets. 
  31.  
  32. The most significant ISO coded character set is the 10646 coded character
  33. set, whose aim is to code in 32 bits all characters in the world.
  34. These guidelines can be seen as assigning mnemonic attributes 
  35. to most characters in 10646, currently at DIS stage.
  36.  
  37. Other ISO coded character sets covered include all parts of
  38. ISO 8859, ISO 6937-2 and all ISO 646 conforming coded character
  39. sets in the ISO character set registry managed by ECMA
  40. according to ISO 4873.
  41. Some non-ISO character sets are also covered for convenience.
  42.  
  43. The Character Mnemonics Classes
  44.  
  45. The character mnemonics are classified into two groups:
  46.  
  47. 1. A group with two-character mnemonics
  48.    - Primarily intended for alphabetic scripts like Latin, Greek,
  49.      Cyrillian, Hebrew and Arabic, and special characters.
  50. 2. A group with variable-length mnemonics
  51.    - primarily intended for non-alphabetic scripts like Japanese
  52.      and Chinese. 
  53.  
  54. All mnemonics are given a long descriptive name, written in the
  55. reference character set and taken from ISO 10646, if possible.
  56.  
  57.  
  58. The Two-Character mnemonics
  59.      
  60. The two-character mnemonics include various accented Latin letters,
  61. Greek, Cyrillic, Hebrew, Arabic, Hiragana, Katakana and Bopomofo.
  62. Also quite some special characters are included.
  63. Almost all ISO or ISO registered 7- and 8-bit coded
  64. character sets are covered with these two-character mnemonics.
  65. Thus conversions between these character sets can be done via a
  66. two-character conversion table.
  67.  
  68. The two characters are chosen so the graphical appearence in the
  69. reference set resembles as much as possible (within the posibilities
  70. available) the graphical appearance of the character. The basic character
  71. set of ISO 646 is used as the reference set, as mentioned above.
  72.  
  73. The characters in the reference character set are chosen to represent
  74. themselves. You may consider them as two-character mnemonics where
  75. the second char is a space.
  76.  
  77. Control characters mnemonics are chosen according to ISO 2047 and ISO 6429 .
  78.  
  79. Letters, including Greek, Cyrillic, Arabic and Hebrew, are represented
  80. with the base letter as the first letter, and the second letter
  81. represents an accent or relation to a non-Latin script.
  82. Non-Latin letters are translitterated to Latin letters,
  83. following translitteration standards as closely as possible.
  84.  
  85. After a letter, the second character signifies the following:
  86.  
  87.   Exclamation mark           ! Grave
  88.   Apostrophe                 ' Acute accent
  89.   Greater-Than sign          > Circumflex accent
  90.   Question Mark              ? tilde
  91.   Hyphen-Minus               - Macron
  92.   Left parenthesis           ( Breve
  93.   Full Stop                  . Dot Above/Ring above
  94.   Colon                      : Diaeresis
  95.   Comma                      , Cedilla
  96.   Underline                  _ Underline
  97.   Solidus                    / Stroke
  98.   Quotation mark             " Double acute accent
  99.   Semicolon                  ; Ogonek
  100.   Less-Than sign             < Caron
  101.         
  102.   Equals                     = Cyrillian
  103.   Asterisk                   * Greek
  104.   Percent sign               % Greek/Cyrillian special
  105.   Plus                       + smalls: Arabic, capitals: Hebrew
  106.   Four                       4 Bopomofo
  107.   Five                       5 Hiragana
  108.   Six                        6 Katakana
  109.  
  110. The ampersand & is reserved as an intro character, indicating that the
  111. following string is in the mnemonic character set. This character
  112. could also be another character, e.g. in the control character set.
  113. One common choice in the control character set is decimal 29,
  114. which seems to have no effect on almost all current equipment.
  115. The intro character can be negotiated between the communicating parties,
  116. but the default is the ampersand "&". Two intro characters in a row
  117. signifies the intro character itself.
  118.  
  119. The underscore is reserved for the variable-length mnemonics.
  120. This use does not eliminate usage as an accent or language identifier.
  121. The right-pointing parenthesis ")" is not in use at the moment
  122. for accent or language identifying.
  123. This is also the case for some digits.
  124.  
  125. Special characters are encoded with some mnemonic value.
  126. These are not systematic thruout, but most mnemonics start
  127. with a special character of the reference set.
  128. Special chars with some sort of reference to the reference
  129. character set normally have this character as the first character
  130. in the mnemonic.
  131.  
  132.  
  133. The Variable-length Character Mnemonics
  134.  
  135. The Variable-length Character Mnemonics are primarily meant for the
  136. ideographic characters in larger Asian character sets.
  137. To have the mnemonics as short as possible, which both saves storage
  138. and is easier to type in, a quite short name is preferred.
  139. Considering the Chinese standard GB 2312-1980 and the Japanese standards
  140. JIS X0208 and JIS X0212, they are all given by row and  column
  141. numbers between 1 and 99. So two positions for row and column and
  142. a character set identifier of one character would be almost as short
  143. as possible. The following character set identifiers are defined:
  144.  
  145.          c   GB 2312-1980
  146.          j   JIS X0208-1990
  147.          J   JIS X0212-1990
  148.          k   KS C 5601-1987
  149.  
  150. The first idea was to have a name in Latin describing the pronunciation
  151. but that is not possible according to Asian sources.
  152.  
  153. One prominent character in the reference character set is reserved
  154. for identifying variable-length mnemonics, namely the underscore "_". This character
  155. is intended as a delimiter both in the front and in the end
  156. of the mnemonic. An example of its use would be: (&=intro):
  157.  
  158.           &_j3210_ &_j4436_&_j6530_
  159.  
  160. The Variable-Length Character Mnemonics can also be used for less-used
  161. Latin letters with more than one accent or other less-used special characters.
  162.